数据集偏差:指用于训练或评估模型的数据在来源、采样、标注或覆盖范围上不均衡,导致模型学到的规律偏向某些人群/场景,从而在现实应用中产生系统性误差或不公平结果。(也可泛指任何由数据不代表真实总体而引发的偏差。)
/ˈdeɪtəˌsɛt ˈbaɪəs/
The team found dataset bias because most images came from one country.
团队发现了数据集偏差,因为大多数图片都来自同一个国家。
If dataset bias is ignored, the model may perform well in testing but fail for underrepresented groups in real-world use.
如果忽视数据集偏差,模型可能在测试中表现很好,但在真实使用中对代表性不足的人群表现很差。
dataset 由 data(数据,源自拉丁语 datum “给出的东西”)+ set(集合)构成;bias(偏见/偏差)源自古法语/中古法语 biais,原意与“斜向、倾斜”相关,后引申为“倾向性的判断”。合起来 dataset bias 即“由数据集合的倾向性造成的偏差”。